iT邦幫忙

2025 iThome 鐵人賽

DAY 14
0
AI & Data

從RAG到EmoRAG:讓AI真正聽懂你的心聲系列 第 14

第14天:多模態檢索效果評測的規劃藍圖

  • 分享至 

  • xImage
  •  

評估模型好壞,常用的參數包含準確率、召回率、F1分數、Hit Rate、MRR(Mean Reciprocal Rank)、AUC等指標。不同任務與資料型態會用不同評測方式,以下舉例說明如何實作 Embedding 模型評測、多模態模型評估,並說明模型挑選流程,特別是針對多模態情緒辨識應用。

常用模型評測參數定義

  • 準確率(Accuracy):預測正確樣本占總樣本比例。
  • 召回率(Recall):在所有真實為正樣本中,被正確預測出來的比例。
  • F1 分數:精確率和召回率的調和平均值,尤其適合不平衡數據。
  • Hit Rate:在 Top-K 中是否命中正確答案的比例,常用於檢索任務。
  • Mean Reciprocal Rank(MRR):查詢任務中,第一個正確答案的排序倒數平均值。
  • ROC/AUC(Area Under Curve):分類模型區分正負樣本的能力指標。
  • 多模態任務還應加入融合表現(Fusion Score)、跨模態一致性(Cross-modal Consistency)等。

Embedding 模型評測實作流程

  1. 資料準備
    • 準備標註好的語料集或問答對(如有 ground truth),分割訓練/測試集。
  2. 嵌入生成
    • 使用不同的 embedding 模型(如 OpenAI、Cohere、JinaAI、BGE 等)將文本轉換為向量表示。
  3. 檢索任務設計
    • 對於每個 query,檢索最相近的 Top-K 向量,取得相應原始資料片段。
  4. 評測指標計算
    • Hit Rate: 是否在 Top-K 內命中正確答案。
    • MRR: 正確答案第一次出現的排名倒數均值。
    • 其他如 Precision@K、Recall@K 可視情境計算。
  5. 結果分析
    • 各 embedding 結合不同 reranker(如 CohereRerank、bge-reranker-large)比較指標,分析性能提升主因。

多模態模型評估方法

  1. 資料設計
    • 多模態資料通常包含文本、影像、聲音等,需設計跨模態 query 與 ground truth 標註,如描述+臉部圖像找相符情緒。
  2. 指標選擇
    • 傳統指標如準確率、召回率、F1 分數仍適用,每個模態也可單獨做評估。
    • 增加跨模態檢索效率(如 Text2Image/Face→Text 檢索的 MRR、Hit Rate)。
    • 融合表現(Fusion score):融合後的結果是否提升了多模態的綜合識別準確率。
    • 一致性(Consistency):不同模態間學到之特徵彼此支持且無衝突。
  3. 實作步驟
    • 建立多模態向量空間。
    • 設計問答或檢索 query,檢查跨模態模型 Top-K 檢索表現。
    • 用上述指標系統性評估。

如何挑選適合需求的模型(以多模態情緒辨識為例)

  • 明確需求:
    ‣ 嵌入形式:是否同時要處理文字與影像等多模態?
    ‣ 檢索類型:需側重多模態融合還是單一模態?
    ‣ 預期準確度與速度,加上硬體資源限制。
  • 看指標:
    ‣ 檢查在標準任務下 Hit Rate、MRR 或 F1 分數表現,選高分者。
    ‣ 注意 reranker 的加成效果,能顯著提升模型表現者優先考慮。
  • 真實測試:
    ‣ 自行用典型 query 及場景測試,檢視 Top-K 命中情形與誤判原因。
  • 融合與擴充性:
    ‣ 多模態系統需支持跨模態融合,有些模型如 CLIP、ALIGN 支持同時對齊文字與影像。
    ‣ 情緒辨識還需情緒設計驗證資料集在各模態下表現一致性。
  • 適合多模態情緒辨識模型實例:
    ‣ Text 模態:BGE-large、JinaAI-base、OpenAI embedding。
    ‣ Image/Face 模態:CLIP、OpenFace、DeepFace,並輔以 cross-modal fusion 技術(如 cross-attention)。
    ‣ Reranker:CohereRerank、bge-reranker-large 能顯著提升命中率與排名準確度。

攻略建議表格

模型類型 主要指標 評測建議 適用場景
Embedding Hit Rate, MRR, F1分數 Top-K 命中、排名倒數、分類準確率 文字/語意檢索
多模態融合 融合準確率、一致性、MRR Text/Face/Audio單模+融合評測 多模態情緒辨識/分析
Reranker 命中率提升幅度、MRR 各嵌入模型前後對照評估 增強檢索效果
框架可擴充性 API支持、資料格式兼容性 靈活性與擴展測試 實驗或企業部署

繁體中文文字評測計畫

  1. 維度一致:每個模型查詢與文件 embedding 維度一致即可,不需截斷。

  2. 語言支援:這四個模型都支援繁體中文。

  3. 資料型態:API 回傳 list of float,Python 端直接處理。

  4. 評測時分開統計各自指標,不要直接比較不同模型的 embedding 分數。

  5. 若有 API rate limit,建議先將 embedding 存檔再做評測。

  6. 針對 emotion_dataset_500_3.csv 測試集,分別用可接受繁體中文的模型 voyage-multilingual-2、voyage-multilingual-light-2、embed-multilingual-light-v3.0(Cohere)、Qwen3-Embedding-0.6B ...做測試

  7. 計算指標:

  • 準確率(Accuracy):預測正確樣本占總樣本比例。
  • 召回率(Recall):在所有真實為正樣本中,被正確預測出來的比例。
  • F1 分數:精確率和召回率的調和平均值,尤其適合不平衡數據。
  • Hit Rate:在 Top-K 中是否命中正確答案的比例,常用於檢索任務。
  • Mean Reciprocal Rank(MRR):查詢任務中,第一個正確答案的排序倒數平均值。
  • ROC/AUC(Area Under Curve):分類模型區分正負樣本的能力指標。
  • 多模態任務還應加入融合表現(Fusion Score)、跨模態一致性(Cross-modal Consistency)

圖片情緒辨識評測計畫

  1. 資料型態與維度一致性
  • 圖片預處理:所有模型需將圖片 resize 到一致大小(如 75x75 或 224x224),並標準化。
  • 標籤格式:label 需轉成 one-hot 或 class index。
  • 資料型態:圖片為 numpy array,標籤為 int 或 one-hot。
  1. 模型架構選擇
  • 可比較 CNN (如 ResNet, VGG)、Vision Transformer (ViT)、EfficientNet 等。
  • 每個模型的輸入維度需一致。
  1. 評測流程
  • 資料集分割:train/val/test(可依 FANE Balanced Dataset 分類)。
  • 訓練模型:用 train/val。
  • 測試模型:在 test set 上預測情緒類別。
  • 計算指標:Accuracy、F1-score、Confusion Matrix。

結論

選擇最適合自己需求的模型,必須針對任務特性、評測指標、實測表現與資源限制做全方位考量,多模態情緒辨識尤需強調跨模態融合準確度與一致性,並透過 Top-K、MRR 指標搭配訓練與驗證資料反覆調整。


上一篇
[多模態RAG]第13天:自製多模態RAG模型的挑戰與效果分析
系列文
從RAG到EmoRAG:讓AI真正聽懂你的心聲14
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言